Correlação parcial

Em teoria das probabilidades e estatística, a correlação parcial mede o grau de associação entre duas variáveis aleatórias, com o efeito de um conjunto de variáveis aleatórias de controle removido. Se estivermos interessados em encontrar se ou com que grau há uma relação numérica entre duas variáveis de interesse, usar seu coeficiente de correlação dará resultados enganadores se houve outra variável, de confusão, numericamente relacionada com ambas as variáveis de interesse. Esta informação enganadora pode ser evitada ao controlar a variável de confusão, o que é feito ao computar o coeficiente de correlação parcial. Isto é precisamente a motivação para incluir outras variáveis à direita em uma regressão múltipla.

Por exemplo, se tivermos dados econômicos sobre o consumo, renda e riqueza de vários indivíduos e quisermos ver se há uma relação entre consumo e renda, não controlar a riqueza ao computar um coeficiente de correlação entre consumo e renda dará um resultado enganador, já que a renda pode ser numericamente relacionada com a riqueza, que, por sua vez, pode ser numericamente relacionada com o consumo. Uma correlação medida entre consumo e renda pode na verdade ser contaminada por estas outras correlações. O uso de uma correlação parcial evita este problema.

Como o coeficiente de correlação, o coeficiente de correlação parcial assume um valor em um intervalo entre $-1$ e $1$ . O valor $-1$ representa uma perfeita correlação negativa controlando algumas variáveis (isto é, uma relação linear exata na qual valores mais elevados de uma variável estão associados com valores mais reduzidos de outra). O valor $1$ representa uma perfeita relação linear positiva e o valor $0$ afirma que não há relação linear.

A correlação parcial coincide com a correlação condicional se as variáveis aleatórias forem conjuntamente distribuídas, como a normal multivariada, a elíptica, a hipergeométrica multivariada, a hipergeométrica multivariada negativa, a multinomial ou a distribuição de Dirichlet, mas, de outra forma, em geral não.^[1]

Exemplo

Suponha que temos os seguintes dados sobre três variáveis $X$ , $Y$ e $Z$ :

$X$	$Y$	$Z$
2	1	0
4	2	0
15	3	1
20	4	1

Estes dados têm a característica de que, sempre que $Z=0$ , $X$ é exatamente igual ao dobro de $Y$ e, sempre que $Z=1$ , $X$ é exatamente igual ao quíntuplo de $Y$ . Assim, contingente no valor de $Z$ , há uma relação exata entre $X$ e $Y$ , mas não se pode dizer que a relação é exata sem referência ao valor de $Z$ .

Na verdade, se computarmos o coeficiente de correlação de Pearson entre as variáveis $X$ e $Y$ , o resultado é aproximadamente $0,969$ , enquanto, se computarmos a correlação parcial entre $X$ e $Y$ , usando a fórmula dada abaixo, encontramos uma correlação parcial de $0,919$ . As computação foram feitas usando R com o seguinte código:

> X = c(2,4,15,20)
> Y = c(1,2,3,4)
> Z = c(0,0,1,1)
> mm1 = lm(X~Z)
> res1 = mm1$residuals
> mm2 = lm(Y~Z)
> res2 = mm2$residuals
> cor(res1,res2)
[1] 0.919145
> cor(X,Y)
[1] 0.9695016

Definição formal

Formalmente, a correlação parcial entre $X$ e $Y$ dado um conjunto de $n$ variáveis de controle $\mathbf {Z} =\{Z_{1},Z_{2},...,Z_{n}\}$ , escrita $\rho _{XY\cdot \mathbf {Z} }$ , é a correlação entre os resíduos $e_{X}$ e $e_{Y}$ resultante da regressão linear de $X$ com $\mathbf {Z}$ e $Y$ com $\mathbf {Z}$ respectivamente. A correlação parcial de primeira ordem (isto é, quando $n=1$ ) é a diferença entre uma correlação e o produto de correlações removíveis dividida pelo produto dos coeficientes de alienação das correlações removíveis. O coeficiente de alienação e sua relação com a variância conjunta pela correlação foram descritos pelo psicólogo norte-americano Joy Paul Guilford.^[2]

Computação

Usando regressão linear

Uma forma simples de computar a correlação parcial amostral para alguns dados é resolver os dois problemas de regressão linear associados, obter os resíduos e calcular a correlação entre os resíduos. Considere $X$ e $Y$ , como acima, variáveis aleatórias que assumem valores reais e considere $\mathbf {Z}$ a variável aleatória de valores vetoriais e de $n$ dimensões. Escrevemos $x_{i}$ , $y_{i}$ e $\mathbf {z} _{i}$ para denotar a $i$ -ésima de $N$ observações independentes e identicamente distribuídas a partir de alguma distribuição de probabilidade conjunta sobre variáveis aleatórias reais $X$ , $Y$ e $\mathbf {Z}$ , com $\mathbf {z} _{i}$ tendo sido aumentado em 1 para permitir um termo constante na regressão. Resolver o problema da regressão linear leva a encontrar os vetores de coeficiente de regressão $\mathbf {w} _{X}^{*}$ e $\mathbf {w} _{Y}^{*}$ de $(n+1)$ dimensões, tal que:

$\mathbf {w} _{X}^{*}=\arg \min _{\mathbf {w} }\left\{\sum _{i=1}^{N}(x_{i}-\langle \mathbf {w} ,\mathbf {z} _{i}\rangle )^{2}\right\},$

$\mathbf {w} _{Y}^{*}=\arg \min _{\mathbf {w} }\left\{\sum _{i=1}^{N}(y_{i}-\langle \mathbf {w} ,\mathbf {z} _{i}\rangle )^{2}\right\},$

com $N$ sendo o número de observação e $\langle \mathbf {w} ,\mathbf {v} \rangle$ o produto escalar entre os vetores $\mathbf {w}$ e $\mathbf {v}$ . Os resíduos são então:

$e_{X,i}=x_{i}-\langle \mathbf {w} _{X}^{*},\mathbf {z} _{i}\rangle ,$

$e_{Y,i}=y_{i}-\langle \mathbf {w} _{Y}^{*},\mathbf {z} _{i}\rangle ,$

e a correlação parcial amostral é então dada pela fórmula usual para correlação amostral, mas entre estes novos valores derivados:

${\hat {\rho }}_{XY\cdot \mathbf {Z} }={\frac {N\sum _{i=1}^{N}e_{X,i}e_{Y,i}-\sum _{i=1}^{N}e_{X,i}\sum _{i=1}^{N}e_{Y,i}}{{\sqrt {N\sum _{i=1}^{N}e_{X,i}^{2}-\left(\sum _{i=1}^{N}e_{X,i}\right)^{2}}}~{\sqrt {N\sum _{i=1}^{N}e_{Y,i}^{2}-\left(\sum _{i=1}^{N}e_{Y,i}\right)^{2}}}}}.$ ^[3]

Usando fórmula recursiva

Pode ser computacionalmente dispendioso resolver os problemas de regressão linear. Na verdade, a correlação parcial de $n$ -ésima ordem (isto é, com $|\mathbf {Z} |=n$ ) pode ser facilmente computada a partir de três correlações parciais de $(n-1)$ -ésima ordem. A correlação parcial de zerésima ordem $\rho _{XY\cdot \varnothing }$ é definida como sendo o coeficiente de correlação regular $\rho _{XY}$ .

Aplica-se que, para qualquer $Z_{0}\in \mathbf {Z}$ ,

$\rho _{XY\cdot \mathbf {Z} }={\frac {\rho _{XY\cdot \mathbf {Z} \setminus \{Z_{0}\}}-\rho _{XZ_{0}\cdot \mathbf {Z} \setminus \{Z_{0}\}}\rho _{Z_{0}Y\cdot \mathbf {Z} \setminus \{Z_{0}\}}}{{\sqrt {1-\rho _{XZ_{0}\cdot \mathbf {Z} \setminus \{Z_{0}\}}^{2}}}{\sqrt {1-\rho _{Z_{0}Y\cdot \mathbf {Z} \setminus \{Z_{0}\}}^{2}}}}}.$

Implementar ingenuamente esta computação como um algoritmo recursivo produz uma complexidade de tempo exponencial. Entretanto, esta computação tem a propriedade de subproblemas sobrepostos, tal que usar a programação dinâmica ou simplesmente armazenar em cache os resultados das chamadas recursivas produz uma complexidade de ${\mathcal {O}}(n^{3})$ . Note que, no caso em que $Z$ é uma variável única, isto se reduz a:

$\rho _{XY\cdot Z}={\frac {\rho _{XY}-\rho _{XZ}\rho _{ZY}}{{\sqrt {1-\rho _{XZ}^{2}}}{\sqrt {1-\rho _{ZY}^{2}}}}}.$ ^[4]

Usando inversão de matriz

Em tempo ${\mathcal {O}}(n^{3})$ , outra abordagem permite que todas as correlações parciais sejam computadas entre quaisquer duas variáveis $X_{i}$ e $X_{j}$ de um conjunto $\mathbf {V}$ de cardinalidade $n$ , dadas todas as outras, isto é, $\mathbf {V} \setminus \{X_{i},X_{j}\}$ , se a matriz de correlação (ou alternativamente a matriz de covariância) $\mathbf {\Omega } =(\omega _{ij})$ , em que $\omega _{ij}=\rho _{x_{i}x_{j}}$ é definida positiva e por isso invertível. Se definirmos $\mathbf {P} =(p_{ij})_{ij}=\mathbf {\Omega } ^{-1}$ , temos que:

$\rho _{X_{i}X_{j}\cdot \mathbf {V} \setminus \{X_{i},X_{j}\}}=-{\frac {p_{ij}}{\sqrt {p_{ii}p_{jj}}}}.$ ^[4]

Interpretação

Geométrica

Considere três variáveis $X,Y,Z$ (em que $Z$ é a "variável de controle" ou "variável extra") escolhidas a partir de uma distribuição de probabilidade conjunta sobre $n$ variáveis $\mathbf {V}$ . Além disso, considere $\mathbf {v} _{i}$ , $1\leq i\leq N$ , as observações $N$ independentes e identicamente distribuídas de $n$ dimensões retiradas a partir da distribuição de probabilidade conjunta sobre $\mathbf {V}$ . Então, consideramos os vetores $\mathbf {x}$ de $N$ -dimensões (formado pelos valores sucessivos de $X$ sobre as observações), $\mathbf {y}$ (formado pelos valores de $Y$ ) e $\mathbf {z}$ (formado pelos valores de $Z$ ).

Pode-se mostrar que os resíduos $e_{X,i}$ vindos a partir da regressão linear de $X$ em $\mathbf {Z}$ , se também considerados como um vetor $\mathbf {e} _{X}$ de $N$ -dimensões, têm um produto escalar zero com o vetor $\mathbf {z}$ gerado por $\mathbf {Z}$ . Isto significa que os vetores residuais repousam em um hiperplano $S_{\mathbf {z} }$ de $(N-1)$ dimensões que é perpendicular a $\mathbf {z}$ .

O mesmo se aplica aos resíduos $e_{Y,i}$ gerando um vetor $\mathbf {e} _{Y}$ . A correlação parcial desejada é então o cosseno do ângulo $\phi$ entre as projeções $\mathbf {e} _{X}$ e $\mathbf {e} _{Y}$ de $\mathbf {x}$ e $\mathbf {y}$ , respectivamente, sobre o hiperplano perpendicular a $\mathbf {z}$ .^[5]

A distribuição da correlação parcial amostral foi descrita pelo estatístico inglês Ronald Fisher. O autor em questão deu a seguinte interpretação geométrica do coeficiente de correlação e da correlação parcial. Considerando três variáveis aleatórias $X$ , $Y$ e $Z$ três amostras de tamanho $n$ , respectivamente $x_{1},x_{2},...,x_{n}$ , $y_{1},y_{2},...,y_{n}$ e $z_{1},z_{2},...,z_{n}$ , pode-se representar a diferença de cada ponto em relação à média de cada amostra como vetores em um espaço euclidiano de $n$ dimensões. Além disto, se cada um destes vetores for normalizado pelo desvio padrão amostral, obtém-se três vetores unitários $OA$ , $OB$ e $OC$ :

$OA=({\frac {x_{1}-{\bar {x}}}{s_{X}}},{\frac {x_{2}-{\bar {x}}}{s_{X}}},\ldots {\frac {x_{n}-{\bar {x}}}{s_{X}}}),$

$OB=({\frac {y_{1}-{\bar {y}}}{s_{Y}}},{\frac {y_{2}-{\bar {y}}}{s_{Y}}},\ldots {\frac {y_{n}-{\bar {y}}}{s_{Y}}}),$

$OC=({\frac {z_{1}-{\bar {z}}}{s_{Z}}},{\frac {z_{2}-{\bar {z}}}{s_{Z}}},\ldots {\frac {z_{n}-{\bar {z}}}{s_{Z}}}).$

Estes três pontos definem um triângulo esférico $ABC$ , em que cada lado representa a correlação e cada ângulo diedro representa a correlação parcial, através de:

$\rho _{XY}=\cos c,$

$\rho _{XZ}=\cos b,$

$\rho _{YZ}=\cos a,$

$\rho _{XY.Z}=\cos \gamma ,$

$\rho _{XZ.Y}=\cos \beta ,$

$\rho _{YZ.X}=\cos \alpha .$ ^[6]

Como teste de independência condicional

Como o pressuposto de que todas as variáveis envolvidas são normais multivariadas, a correlação parcial $\rho _{XY\cdot \mathbf {Z} }$ é zero se e apenas se $X$ for condicionalmente independente de $Y$ dada $\mathbf {Z}$ .^[1] Esta propriedade não se aplica no caso geral.

Para testar se uma correlação parcial amostral ${\hat {\rho }}_{XY\cdot \mathbf {Z} }$ implica um correlação parcial populacional verdadeira de $0$ , a transformada $z$ de Fisher da correlação pode ser usada:

$z({\hat {\rho }}_{XY\cdot \mathbf {Z} })={\frac {1}{2}}\ln \left({\frac {1+{\hat {\rho }}_{XY\cdot \mathbf {Z} }}{1-{\hat {\rho }}_{XY\cdot \mathbf {Z} }}}\right).$

A hipótese nula é $H_{0}:\rho _{XY\cdot \mathbf {Z} }=0$ , a ser testada contra a alternativa bicaudal $H_{A}:\rho _{XY\cdot \mathbf {Z} }\neq 0$ . Rejeitamos $H_{0}$ com nível de significância $\alpha$ se:

${\sqrt {N-|\mathbf {Z} |-3}}\cdot |z({\hat {\rho }}_{XY\cdot \mathbf {Z} })|>\Phi ^{-1}(1-\alpha /2),$

em que $\phi (\cdot )$ é a função distribuição acumulada de uma distribuição normal com média zero e desvio padrão unitário, sendo $N$ o tamanho da amostra. Esta transformada $z$ é aproximada e a verdadeira distribuição do coeficiente de correlação (parcial) amostral não é direta. Entretanto, um teste t exato baseado em uma combinação do coeficiente de regressão parcial com o coeficiente de correlação parcial e as variâncias parciais está disponível.^[7]

Correlação semiparcial

A estatística de correlação semiparcial (correlação de parte) é semelhante à estatística de correlação parcial. Ambas comparam variações de duas variáveis depois que certos fatores são controlados, mas para calcular a correlação semiparcial, mantém-se a terceira variável constante ou para $X$ ou para $Y$ , mas não para ambas, enquanto para a correlação parcial, mantém-se a terceira variável constante para ambas. A correlação semiparcial compara a única variação de uma variável (tendo removida a variação associada com a(s) variável(is) $Z$ ) com a variação não filtrada da outra, enquanto a correlação parcial compara a única variação de uma variável com a única variação de outra.

A correlação semiparcial pode ser vista como mais relevante em termos práticos, porque é escalonada em relação à variabilidade total na variável dependente (de resposta)". Por outro lado, é menos útil em termos teóricos, porque é menos precisa quanto ao papel da única contribuição da variável independente.

O valor absoluto da correlação semiparcial de $X$ com $Y$ é sempre menor que ou igual àquele da correlação parcial de $X$ com $Y$ . Suponha que a correlação de $X$ com $Z$ tenha sido removida de $X$ , dando o vetor residual $\mathbf {e} _{x}$ . Ao computar a correlação semiparcial, $Y$ ainda contém tanto a variância única, quanto a variância devido a sua associação com $Z$ . Entretanto, $\mathbf {e} _{x}$ , sendo não correlacionado com $Z$ , pode apenas explicar um pouco da parte única da variância de $Y$ e não da parte relativa a $Z$ . Em contraste, com a correlação parcial, apenas $\mathbf {e} _{y}$ (a parte da variância de $Y$ que não é relacionada com $Z$ ) pode ser explicado, de forma que há menos variância do tipo que $\mathbf {e} _{x}$ não pode explicar.^[8]

Uso em análise de séries temporais

Em análise de séries temporais, a função autocorrelação parcial (algumas vezes "função correlação parcial") de uma série temporal é definida, para a defasagem $h$ , como:

$\varphi (h)=\rho _{X_{0}X_{h}\cdot \{X_{1},\dots ,X_{h-1}\}}.$

Esta função é usada para determinar o comprimento de defasagem apropriado para uma autorregressão.^[9]

Ver também

Referências

↑ ^a ^b Baba, Kunihiro; Shibata, Ritei; Sibuya, Masaaki (1 de dezembro de 2004). «Partial Correlation and Conditional Correlation as Measures of Conditional Independence». Australian & New Zealand Journal of Statistics (em inglês). 46 (4): 657–664. ISSN 1467-842X. doi:10.1111/j.1467-842x.2004.00360.x
↑ 1897-1987., Guilford, J. P. (Joy Paul), (1978). Fundamental statistics in psychology and education 6th ed. New York: McGraw-Hill. ISBN 9780070251502. OCLC 2894064
↑ Lowry, Richard (1999). «Partial Correlation». VassarStats. Consultado em 19 de fevereiro de 2018
↑ ^a ^b Prokhorov, A.V. (2011) [1994]. «Partial correlation coefficient». Springer Science+Business Media B.V. /Kluwer Academic Publishers. Consultado em 19 de fevereiro de 2018
↑ Rummel, R. J. (1976). «Understanding Correlation». University of Hawaii. Consultado em 19 de fevereiro de 2018
↑ Fisher, Ronald (1924). «The Distribution of the Partial Correlation Coefficient». Metron. Consultado em 19 de fevereiro de 2018
↑ Kendall, Maurice George (1975). The advanced theory of statistics 3rd ed. London: Griffin. ISBN 0852642156. OCLC 80139
↑ M., Warner, Rebecca (2013). Applied statistics : from bivariate through multivariate techniques 2nd ed. Thousand Oaks, Calif.: SAGE Publications. ISBN 141299134X. OCLC 772715742
↑ Quenouille, M. H. (1949). «Approximate Tests of Correlation in Time-Series». Journal of the Royal Statistical Society. Series B (Methodological). 11 (1): 68–84

[:0-1] Baba, Kunihiro; Shibata, Ritei; Sibuya, Masaaki (1 de dezembro de 2004). «Partial Correlation and Conditional Correlation as Measures of Conditional Independence». Australian & New Zealand Journal of Statistics (em inglês). 46 (4): 657–664. ISSN 1467-842X. doi:10.1111/j.1467-842x.2004.00360.x

[2] 1897-1987., Guilford, J. P. (Joy Paul), (1978). Fundamental statistics in psychology and education 6th ed. New York: McGraw-Hill. ISBN 9780070251502. OCLC 2894064

[3] Lowry, Richard (1999). «Partial Correlation». VassarStats. Consultado em 19 de fevereiro de 2018

[:1-4] Prokhorov, A.V. (2011) [1994]. «Partial correlation coefficient». Springer Science+Business Media B.V. /Kluwer Academic Publishers. Consultado em 19 de fevereiro de 2018

[5] Rummel, R. J. (1976). «Understanding Correlation». University of Hawaii. Consultado em 19 de fevereiro de 2018

[6] Fisher, Ronald (1924). «The Distribution of the Partial Correlation Coefficient». Metron. Consultado em 19 de fevereiro de 2018

[7] Kendall, Maurice George (1975). The advanced theory of statistics 3rd ed. London: Griffin. ISBN 0852642156. OCLC 80139

[8] M., Warner, Rebecca (2013). Applied statistics : from bivariate through multivariate techniques 2nd ed. Thousand Oaks, Calif.: SAGE Publications. ISBN 141299134X. OCLC 772715742

[9] Quenouille, M. H. (1949). «Approximate Tests of Correlation in Time-Series». Journal of the Royal Statistical Society. Series B (Methodological). 11 (1): 68–84

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]